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摘要 : 新 疆 天 文 台 Taurus 高 性 能 计算 系统 由 1 个 登陆 节点 、16 个 计算 节点 、 
2S 1/0 节点 、100TB 高 速 存储 组 成 。 其 CPU 理论 双 精 浮 点 计算 能 力 
6.7584Tflops， 通 过 Linpack 测试 实际 峰值 为 6. 289Tflops, 可 提供 计算 能 力 为 
里 论 值 的 93. 06%; GPU 理论 计算 能 力 18.72 Tflops， 实 际 测试 计算 峰值 为 
14. 882Tf lops, 计算 效率 为 理论 能 力 的 79. 5%。 系 统计 算 与 存储 节点 均 采 用 566b 
Infiniband 交换 互 连 ， 通 过 I0Zone 测试 存储 系统 ， 单 节点 写 可 达 460MB/s, 多 
节点 写 可 达 800MB/s。 系 统 已 在 多 相 滤 波及 消 干 扰 GPU 算法 加 速 、 蒙 特 卡 罗 模 拟 
等 领域 得 到 了 应 用 。 
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天 文学 是 一 门 基于 观测 和 模拟 的 数据 密集 型 科学 ， 暗 能 量 、 上 暗物质、 黑洞、 
宇宙 起 源 、 天 体 起 源 、 生 命 起 源 等 是 天 文学 研究 的 前 沿 重大 基础 科学 问题 ， 解 
决 这 些 问题 的 首要 方法 是 观测 ， 其 次 是 利用 高 性 能 计算 系统 对 海量 真实 或 仿真 
数据 进行 建 模 和 模拟 分 析 ， 从 而 进一步 揭示 宇宙 的 奥秘 。 信 息 技术 、 高 性 能 计 
算 技术 等 的 高 速 发 展 使 得 用 计算 机 实现 理论 和 实验 研究 成 为 可 能 ， 在 这 样 的 背 
景 下 ， 天 文学 家 通过 高 性 能 计算 系统 进行 科学 研究 成 为 必然 趋势 杨 哲 害 , sel, X 
梁 . 大 规模 天 文 数 据 分 析 及 多 维 信息 可 视 化 平台 的 建设 和 管理 器. 科研 信息 化 技术 与 应 用 ， 
2015, 6(5):73-83. 。 中 国 科学 院 新 疆 天 文 台 几 十 年 来 致力 于 天 文 观 测 和 理论 研究 ， 
科研 内 容 包括 : 脉冲 星 、 恒 星 形 成 、 活 动 星系 核 、 射 电 及 光学 望远镜 技术 等 ， 
为 提高 数据 处 理 和 仿真 分 析 研 究 效 率 ， 结 合 自身 科学 研究 需求 搭建 了 高 性 能 计 
算 系统 ， 命 名 为 Taurus 。 

近 些 年 基于 图 形 处 理 器 (Graphic Processing Unit, GPU) 的 并 行 计 算 技术 已 
经 成 为 高 性 能 计算 领域 的 研究 热点 ， 利 用 GPU 可 以 大 大 加 速 科学 分 析 、 仿 真 等 


方面 应 用 程序 的 运行 速度 Fan Z, Qiu F, Kaufman A, et al. GPU cluster for high 


performance computing[C]// Proceedings of the ACM/IEEE SC2004 Conference. 2004: 


47-47. 。GPU 加 速 计 算 技 术 早 在 2007 4E EH NVIDIA 公司 推出 Kirk D. NVIDIA CUDA 


software and GPU parallel computing architecture[C]// Proceedings of the 6th 


international symposium on Memory management. 2007: 103-104. ， 将 计算 密集 型 的 
任务 提交 GPU 处 理 ， 同 时 CPU 依然 处 理 其 余 任务 ， 可 以 有 效 提 升 数据 处 理 速度 。 
在 天 文 领 域 ，GPU 计算 框架 非常 适合 天 文 图 像 处 理 、 罕 宙 学 大 尺度 数值 模拟 、 
空间 目标 轨道 模拟 等 ，GPU 计算 框架 已 经 在 天 文学 研究 中 得 到 广泛 的 应 用 。 
高 性 能 计算 系统 的 计算 性 能 来 自 于 多 节点 的 并 行 计 算 ， 节 点 之 间 的 数据 传 


输 、 通讯 是 系统 建设 的 关键 Chervenak A, Foster I, Kesselman C, et al. The data 


grid: towards an architecture for the distributed management and analysis of 


large scientific datasets[J]. Journal of Network and Computer Applications, 
2000, 23(3): 187-200. . Taurus 高 性 能 计算 系统 的 建立 使 得 新 疆 天 文 台 在 高 性 能 
计算 支持 上 实现 了 零 的 突破 ， 在 未 来 的 工作 中 Taurus 高 性 能 计算 系统 将 助力 于 
新 疆 天 文 台 在 天 体 演化 模型 研究 、 射 电 天 文 多 相 滤波 器 、 相 干 及 非 相 干 消 色散 、 
数值 模拟 等 多 方面 的 科研 工作 。 


1 http://taurus.xao.ac.cn/ 
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1, Taurus 高 性 能 计算 系统 


1.1 系统 拓扑 

Taurus 高 性 能 计算 系统 采用 CPU+GPU 混合 架构 ， 目 前 整个 系统 由 1 个 登陆 
节点 、1 个 管理 节点 、16 个 计算 节点 、2 个 1/0 节 点 、100TB 高 速 存储 组 成 。 
个 计算 节点 配备 了 2 颗 12 核心 Intel Xeon E5-2692 v2 CPU， 主 频 为 
2. 20GHz，64GB 内 存 ， 一 个 Nvidia Tesla K20m GPU。 计 算 与 1/0 节 点 之 间 通 过 
56Gb Infiniband 交换 机 互联 ， 以 实现 调整 数据 或 消息 传道， FILUAM 
IPMI 网 络 用 于 集群 系统 管理 ，Taurus 高 性 能 计算 系统 拓扑 结构 如 图 1。 


图 1 Taurus 高 性 能 计算 系统 拓扑 结构 图 
Fig.1 Topology of Taurus 


1.2 计算 性 能 测试 
LinpackDongarra J J, Luszczek P, Petitet A. The LINPACK benchmark: past, 


present and future[J]. Concurrency and Computation: Practice and Experience, 
2003, 15(9): 803-820. 是 国际 上 最 流行 的 用 于 测试 高 性 能 计算 机 系统 浮 点 性 能 的 
基准 程序 ， 也 是 世界 排名 TOP500 超级 计算 机 的 标准 测试 软件 。 性 能 测试 由 多 个 
64 位 双 精 浮 点 运算 组 成 ， 测 试 一 个 计算 系统 每 秒 可 以 进行 的 乘 加 计算 次 数 
(flops) 。Linpack 有 3 种 基准 测试 ， 分 别 为 Linpack 100, Linpack 1000 以 


及 HPLinpack Barrett R F, Chan T H F, D'Azevedo E F, et al. Complex version of 


high performance computing LINPACK benchmark  (HPL)[J]. Concurrency and 
Computation: Practice and Experience, 2010, 22(5): 573-587. 。 前 两 种 基准 测试 
不 适合 测试 并 行 计算 机 集群 ， 本 文采 用 HPLinpack 对 Taurus 高 性 能 计算 系统 进 


行 测试 。 


1.2.1 CPU 性 能 测试 
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Taurus 高 性 能 计算 系统 共有 16 个 计算 节点 ， 单 个 计算 节点 配置 如 表 
1。E5-2692v2 每 时 钟 周 期 可 进行 8 次 运算 ，Taurus 高 性 能 计算 系统 CPU 双 精 度 
浮 点 理论 计算 能 力 为 2. 248*24*16= 6758. 4Gflops。 


表 1 计算 节点 配置 表 


Table 1 Compute node configuration 


Dv [ws mos [elm — — — — — 


网 络 | 56Gb Infiniband Infiniband 用 于 数据 传输 
Gigabit 千 兆 以 太 网 用 于 管理 


ERRER RA 


HPLinpack 是 针对 现代 并 行 计 算 机 提出 的 测试 方法 ， 其 核心 是 利用 高 斯 消 
元 法 求解 一 元 VW 次 圭 笛 密 线 性 代数 方程 组 ， 测 试 和 评价 高 性 能 计算 系统 的 浮 点 
运算 性 能 。Linpack 的 HPL. dat 文件 配置 如 表 2，16 节点 CPU 测试 结果 如 表 3。 


表 2 CPU 测试 HPL. dat 配置 表 


Table 2 HPL. dat configuration table of CPU test 


HPLinpack benchmark input file 
Innovative Computing Laboratory, University of Tennessee 


HPL.out output file name (if any) 


6 device out (6=stdout,7=stderr, file) 

1 # of problems sizes (N) 

341760 Ns 

1 # of NBs 

208 NBs 

1 PMAP process mapping (0-Row-,1—Column-major) 
1 # of process grids (P x Q) 

16 Ps 

24 Qs 


16.0 Threshold 
1 # of panel fact 
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PFACTs (0=left, 1=Crout, 2=Right) 
# of recursive stopping criterium 
NBMINs (>= 1) 

# of panels in recursion 

NDIVs 

# of recursive panel fact 

RFACTs (0=left, 1=Crout, 2=Right) 
# of broadcast 

BCASTs (0=Irg, 1=11M,2=2rg,3=2rM,4=Lng,5=LnM) 
# of lookahead depth 

DEPTHs (>=0) 

SWAP (0=bin-exch, l=long,2=mix) 


N NOR UO = Re Re N Re = 一 一 


64 swapping threshold 
0 L1 in (0=transposed, l|=no-transposed) form 
0 U in (0=transposed, 1=no-transposed) form 
1 Equilibration (O=no, 1=yes) 
8 memory alignment in double (> 0) 
#3 16 节点 CPU 测试 结果 

Table 3 Test results of 16 CPU nodes 
T/V N NB P Q Time Gflops 
WC23C2C1 341760 208 16 24 4231.70 6.289e+03 


最 终 测试 结果 表明 , Taurus 高 性 能 计算 系统 CPU 双 精 度 浮 点 实际 计算 能 力 为 
6. 289Tflops， 计 算 效 率 为 6. 289/6. 7584-93. 06%。 


1.2.2 GPU 性 能 测试 

Taurus 高 性 能 计算 系统 每 个 节点 配备 一 块 Nvidia Tesla K20m GPU, Tesla 
K20m 是 Nvidia 推出 的 Kepler 架构 GPU， 该 GPU 拥有 2496 个 CUDA 核心 ， 核 心 频 
率 为 706MHz， 存 储 器 带宽 为 208GB/s，Taurus 高 性 能 计算 系统 16 节点 GPU 双 精 
度 浮 点 数理 论 计算 能 力 为 16*1. 17e+03Gflops=18. 72Tflops. 


本 文 使 用 HPLinpack 对 单个 节点 GPU 计算 性 能 进行 了 测试 ，Linpack 的 
HPL. dat 文件 配置 如 表 4， 单 个 Tesla K20m GPU 不 同 Ns 值 测试 结果 如 表 5。 
表 4 GPU 测试 HPL. dat 配置 表 


Table 4 HPL. dat configuration table of CPU test 


HPLinpack benchmark input file 
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Innovative Computing Laboratory, University of Tennessee 
HPL.out output file name (if any) 


6 


012 


Ns Value 


82544 
82897 


device out (6=stdout,7=stderr,file) 
# of problems sizes (N) 


# of NBs 

NBs 

PMAP process mapping (0-Row-,1—Column-major) 
# of process grids (P x Q) 

Ps 

Qs 

Threshold 

# of panel fact 

PFACTs (0=left, 1=Crout, 2=Right) 
# of recursive stopping criterium 
NBMINs (>= 1) 

# of panels in recursion 

NDIVs 

# of recursive panel fact 

RFACTS (0=left, 1=Crout, 2=Right) 
# of broadcast 

BCASTs (0=Irg, 1=11M,2=2rg,3=2rM,4=Lng,5=LnM) 
# of lookahead depth 

DEPTHs (>=0) 

SWAP (0=bin-exch, l=long,2=mix) 
swapping threshold 


L1 in (0=transposed, 1=no-transposed) form 
U in (0=transposed, 1=no-transposed) form 
Equilibration (0=no, 1=yes) 


memory alignment in double (> 0) 


表 5 单 GPU 测 试 结 果 
Table 5 Test results of GPU 


Tesla K20M 
Calculation Value(Gflops) 


1.034e+03 
1.057e+03 
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87936 1.069e+03 
88192 1.065e+03 
88448 9.063e+02 


通过 多 次 测试 得 到 了 Ns AAT, WTS AA EY 
个 数 为 mW RBA R, WU. 


Ns=ROUND (SQRT (M#N*1024*1024*R/8) /128, 0) *128 


当中 值 在 0.8 到 0.9 之 间 时 GPU 集群 可 以 得 到 最 高 测试 结果 。 测 试 中 
Taurus 高 性 能 计算 系统 16 个 GPU 节点 最 高 计算 峰值 为 14. 882Tflops， 实 际 计 
算 效 率 为 14. 882/18. 72=79. 5%。 


1.3 存储 系统 性 能 测试 

Taurus 采用 了 LustreZhao T, March V, Dong S, et al. Evaluation of a 
performance model of lustre file system[C]// 2010 Fifth Annual ChinaGrid 
Conference. 2010: 191-196. 文件 系统 作为 存储 系统 ， 存 储 容 量 为 100TB。 存 储 架 
构 为 一 个 存储 节点 与 两 个 扩展 盘 柜 ， 扩 展 盘 柜 和 中 央 存 储 节 点 直接 使 用 SAS Be 
口 连接 ， 使 用 回环 模式 。Lustre 文件 系统 是 一 个 开源 的 ， 基 于 对 象 存储 技术 的 
集群 并 行文 件 系 统 ， 可 为 Taurus 提供 可 靠 、 安 全 、 易 用 且 可 扩展 的 存储 环境 


Kosta L, Hunter H, George G, et al. Measuring I/O Performance of Lustre and the 


Temporary File System for Tradespace Applications on HPC 
Systems[C]//Proceedings of the SouthEast Conference. 2017: 187-190.. Lustre X. 
件 系 统 的 架构 图 如 图 2。 


图 2 Lustre 文件 系统 架构 图 


Fig.2 File system architecture of Lustre 


Taurus 存储 使 用 集中 管理 方式 ， 所 有 计算 节点 加 载 同 一 套 存储 系统 。 为 了 


US 1/0 瓶颈 问题 Yildiz 0, Dorier M, Ibrahim S, et al. On the root 


causes of cross-application I/0 interference in HPC storage systems[C]// 2016 


IEEE International Parallel and Distributed Processing Symposium. 2016: 750- 
759. ， 存 储 控制 器 上 两 个 独立 的 控制 卡 分 别 通过 光纤 和 两 个 互 为 元 余 的 L/0 节 
点 连接 ， 当 其 中 一 个 1/0 节 点 发 生 故 障 ， 男 一 个 1/0 节点 立刻 接管 ， 保 证 了 存 
储 的 稳定 性 。 其 次 1/0 节点 和 服务 器 之 间 采 用 56Gb InfinibandPfister G F. An 


introduction to the infiniband architecture[M]// High Performance Mass Storage 
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and Parallel I/0: Technologies and Applications . 2001: 617-632. 链接 ， 支 持 多 
并 发 链接 转换 技术 ， 有 具备 高 速 数据 传输 能 


通过 文件 系统 基准 测试 工具 I0Zone 对 Taurus 的 文件 系统 进行 了 写 入 、 读 
取 、 重 读 、 重 写 、 反 向 读 、 跨 越 式 读 、 从 文件 中 读 、 往 文件 中 写 、 随 机 读 取 、 
预 读 取 、 内 存 映 射 文件 I/0、 异 步 1/0 读 取 、 异 步 1/0 写 入 等 测试 张 春 明 ， 芮 建 
武 ， 何 婷 婷 ， 一 种 Hadoop 小 文件 存储 和 读 取 的 方法 [JJ， 计 算 机 应 用 与 软件 ，2012， 
29(11): 95-100. 。 测 试 中 指定 生成 的 测试 文件 应 小 于 实际 内 存 容量 ， 否 则 将 影响 
测试 结果 。Taurus 高 性 能 计算 系统 多 节点 最 高 读 取 速度 达到 66GB/s 左右 ; BA 
速度 如 图 3， 当 文件 大 小 为 256MB 且 分 块 大 小 为 16MB 时 达到 最 快 的 写 入 速度 
650MB/s。 


Kbytes/sec 
> un 
8 8 
S 8 
e e 


File size in Kbytes 


图 3 Taurus 高 性 能 计算 系统 写 入 性 能 测试 


Fig.3 Write performance test of Taurus 


1.4 软件 环境 
Taurus 高 性 能 计算 系统 采用 PBS 集群 调度 器 进行 硬件 资源 的 管理 和 分 配 ， 
用 户 可 以 通过 PBS 提交 作业 脚本 、 查 询 作业 状态 信息 、 作 业 队 列 管理 等 操作 。 
Taurus 采用 module 管理 软件 版 本 及 库 函 数 版 本 等 ， 方 便 用 户 配 置 环境 变量 。 用 
户 可 以 直接 使 用 module 切换 python 版 本 、MPI 并 行 环 境 及 编程 模型 等 。 GPU 
编程 方面 ， 每 个 计算 节点 支持 CUDA 运算 架构 ， 可 以 直接 通过 PBS 提交 数据 密集 
型 作业 给 GPU 进行 运算 。 
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2、 高 性 能 计算 系统 应 用 
Taurus 高 性 能 计算 系统 建成 后 ，30 余 名 科研 人 员 使 用 Taurus 开展 科研 相 
关 计算 工作 。 


2.1 蒙特 卡 罗 模 拟 分 子 云 中 的 化 学 演化 
天 体 化 学 是 一 门 模拟 各 种 各 样 分 子 在 分 子 云 中 合成 的 学 科 ， 蒙 特 卡 罗 模 拟 
是 天 体 化 学 的 种 常见 模拟 方法 Lamberts T, Cuppen H M, Ioppolo S, et al. 


Water formation at low temperatures by surface 0 2 hydrogenation III: Monte 


Carlo simulation[J]. Physical Chemistry Chemical Physics, 2013, 15(21): 8287- 
8302. 。 蒙 特 卡 罗 模 拟 方法 是 一 种 随机 过 程 ， 用 来 模拟 一 个 反应 网 络 中 茶 一 个 化 
学 反应 的 发 生 。 新 疆 天 文 台 的 天 体 化 学 课题 组 使 用 Taurus 模拟 在 一 个 有 尺度 分 
布 的 系统 中 各 种 分 子 的 化 学 演化 ， 取 分 子 云 中 的 一 个 很 小 的 体积 作为 一 个 系统 ， 
里 面包 含 一 个 尘埃 以 及 它 周围 的 气体 。 这 个 系统 中 包含 多 种 化 学 反应 ， 可 以 通 
过 计算 系统 对 这 些 化 学 反应 进行 模拟 ， 同 时 考虑 多 个 尘埃 时 需 并 行 共同 演化 ， 
当 达 到 一 定 条 件 后 再 对 各 个 子 系统 进行 混合 处 理 ， 保 证 整个 大 系统 处 于 一 种 均 
匀 状 态 。 

蒙特 卡 罗 方 法 的 缺点 之 一 是 耗 时 太 长 ， 在 普通 单机 计算 机 上 进行 模拟 二 十 
万 年 演化 时 间 尺 度 就 需要 数 十 天 时 间 。 而 通过 使 用 Taurus 高 性 能 计算 系统 ， 目 
前 模拟 二 十 万 年 演化 时 间 尺 度 的 时 间 约 为 7 天 。 新 疆 天 文 台 天 体 化 学 课题 组 使 
FA Taurus 高 性 能 计算 系统 对 不 同 分 子 演化 使 用 蒙特 卡 罗 方法 模拟 结果 如 图 4。 
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图 4 不 同 分 子 演 化 模拟 结果 图 


Fig.4 Different molecular evolution simulation results 


2.2 ”多 相 滤波 及 消 干 殷 GPU 加 速 


射频 干扰 (Radio Frequency Interference, RFI) 的 识别 及 消除 ， 如 何 快速 
准确 地 找 出 射频 干扰 ， 防 止 把 真实 信号 误 判 为 干扰 是 一 项 急需 解决 的 技术 难点 。 
由 于 大 口径 望远镜 数据 的 计算 量 非常 大 、 射 频 干 扰 环 境 复 杂 ， 对 射频 干扰 实时 
处 理 技术 提出 很 大 的 挑战 。 新 疆 天 文 台 研究 人 员 正 在 实验 使 用 CUDA 加 速 消除 射 
频 干 扰 ， 目 前 已 初步 实现 基于 Taurus GPU 的 自 适 应 射频 干扰 处 理 方法 ， 并 得 到 
良好 的 效果 ， 射 频 干 扰 处 理 结果 如 图 5。 使 用 Taurus 高 性 能 计算 系统 能 够 有 效 
减少 干扰 处 理 消耗 时 间 ， 为 相干 消 色 散 实现 提供 了 硬件 平台 。 
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5 利用 Taurus GPU RFI 处 理 前 、 后 脉冲 星 信号 轮廓 对 比 
Fig.5 The contrast of pulse profile by using Taurus GPU RFI 
2.3 Taurus 高 性 能 计算 系统 使 用 申请 
Taurus 高 性 能 计算 系统 采用 开放 式 管 理 ， 接 受 相 关 领 域 研究 人 员 申 请 ， 可 
将 有 具体 需求 发 送 到 zhanghailong@xao. ac. cn. Taurus 平台 详细 使 用 说 明 及 示例 


时 序 参见 网 站 : http://taurus. xao. ac. cno 


um 
HU 


3、 结 论 

根据 新 疆 天 文 台 科研 计算 需求 建设 了 16 节点 的 高 性 能 计算 系统 。 经 过 测试 ， 
所 建设 的 超 算 系统 CPU 性 能 为 理论 值 的 93%, GPU 性 能 为 理论 值 的 80%。Lustre 
存储 系统 多 节点 在 分 块 大 小 为 16MB、 分 块 文件 大 于 256M 时 取得 较 理想 的 写 入 速 
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度 ， 如 果 文 件 过 小 影响 整个 存储 系统 性 能 。 目 前 30 余 位 用 户 在 使 用 Taurus 超 
算 系统 进行 科学 计算 工作 ， 在 蒙特 卡 罗 模 拟 分 子 云 中 的 化 学 演化 、 多 相 滤 波 器 
组 算法 GPU 加 速 等 相关 领域 得 到 了 较 好 的 计算 结 
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Abstract: Taurus high performance computing system of Xinjiang Astronomical 
Observatory has 1 login node, 16 compute nodes, 2 I/O nodes and 100TB high-speed 
storage. In theory, the double precision floating-point computation capacity of CPUs 
is 6.7584Tflops. The actual peak turns out to be 6.289Tflops tested by Linpack, the 
available computation capability is 93.06% of the theoretical value. The computation 
capacity of the GPUs is 18.72Tflops in theory, while its practical peak is 
14.882Tflops, the available computation capability is 79.5% of the theoretical value. 
The calculation nodes and the storage nodes are connected by 56Gb Infiniband 
network. Using IOZone for testing the storage performance, single-node writing 
reaches 460MB/s and multi-node writing can be 800MB/s. The Taurus HPC system 
has been applied in various fields such as GPU algorithm acceleration and Monte 


Carlo simulation. 
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